推理模型科幻影视

OpenAI 发布全新安全推理模型：GPT-OSS-Safeguard

OpenAI 今日正式发布两款全新开源安全模型GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B，这是基于 GPT-OSS 系列微调的 “安全分类推理模型（Safety Reasoning Models）”，主要用于内

这项由香港中文大学（深圳）的朱子豪、吴欣宇、胡格涵团队，联合纽约州立大学布法罗分校和华为国际新加坡公司共同完成的研究，发表于2025年9月的arXiv预印本平台（论文编号：arXiv:2509.24269v1）。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们解决数学题时，如果第一遍算错了，通常会回头重新审题，仔细观察图表中的细节。但目前的人工智能视觉模型却做不到这一点——它们看图就像"一目十行"的快速阅读，看一眼就下结论，很少会重新审视图像中的关键信息。

综合评估显示，LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。

在大模型竞赛围绕参数规模和跑分展开时，美团发布的新一代大模型选择了一条不同的路径：一切围绕能否真正解决问题展开。它不仅在国际权威的数学、代码测评中达到了顶级水平，更在晚上吃什么？礼物怎么选？这类具体而微小的生活难题中，展现出理解力和实用性。本文将结合技术报告与

官方介绍称，在保持了 LongCat-Flash-Chat 极致速度的同时，全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示，LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中，

在 2013 年，DeepMind 就展示过一个小实验：用 RL 训练的智能体，只凭屏幕上的像素和得分反馈，就能学会玩上世纪的街机游戏《打砖块》。几年后，AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号，超越了世界顶尖棋手，在围棋、国际象棋和

在 2013 年，DeepMind 就展示过一个小实验：用 RL 训练的智能体，只凭屏幕上的像素和得分反馈，就能学会玩上世纪的街机游戏《打砖块》。几年后，AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号，超越了世界顶尖棋手，在围棋、国际象棋和

在 2013 年，DeepMind 就展示过一个小实验：用 RL 训练的智能体，只凭屏幕上的像素和得分反馈，就能学会玩上世纪的街机游戏《打砖块》。几年后，AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号，超越了世界顶尖棋手，在围棋、国际象棋和